본 부록은 교재 본문(특히 3장 이후)에서 사용되는 t-검정의 이론적 근간이 되는 t-분포(t-distribution)에 대한 보다 깊이 있는 이해를 제공하기 위해 마련되었습니다. t-분포는 특히 모집단의 표준편차(\(\sigma\))를 알지 못하는 현실적인 상황에서 표본 데이터를 바탕으로 통계적 추론을 할 때 핵심적인 역할을 수행합니다. 이 부록은 본문의 응용 및 실습 내용보다 이론적이고 수학적인 내용을 포함하고 있으므로, 독자의 필요에 따라 참고하시기 바랍니다.
C t-분포는 왜 필요한가? (역사적 배경과 동기)
t-분포는 20세기 초 영국의 통계학자 윌리엄 실리 고셋(William Sealy Gosset)에 의해 “Student”라는 필명으로 발표되면서 알려지기 시작했습니다. 그는 기네스 양조회사에서 맥주 양조 과정의 품질 관리를 위해 소량의 표본(small sample)만을 가지고 통계적 분석을 해야 하는 문제에 직면했습니다.
고전적인 통계 이론에서는 표본 평균(\(\bar{x}\))의 분포를 다룰 때, 표준화된 값인 \(Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\)가 표준정규분포 \(N(0, 1)\)를 따른다는 사실을 이용합니다. 하지만 이는 모집단의 표준편차(\(\sigma\))를 알고 있다는 가정이 필요합니다. 실제 연구 상황에서는 \(\sigma\)를 모르는 경우가 대부분이며, 대신 표본 표준편차(\(s\))를 사용하여 \(\sigma\)를 추정해야 합니다.
고셋은 \(\sigma\) 대신 \(s\)를 사용하여 계산한 통계량 \(t = \frac{\bar{x} - \mu}{s/\sqrt{n}}\)가 표본 크기(\(n\))가 작을 때 표준정규분포를 따르지 않는다는 것을 발견했습니다. 표본 표준편차 \(s\) 자체도 표본에 따라 변동하는 값이기 때문에, \(s\)를 사용하여 계산된 t-통계량은 Z-통계량보다 더 큰 불확실성(변동성)을 갖게 됩니다. 고셋은 이러한 통계량이 따르는 새로운 확률 분포를 수학적으로 규명하였고, 이것이 바로 t-분포입니다.
D t-분포의 수학적 정의 및 발생 과정
t-분포를 따르는 확률 변수 \(T\)는 다음과 같이 수학적으로 정의됩니다.
정의: 확률 변수 \(T\)는 자유도(degrees of freedom) \(\nu\)를 갖는 t-분포, \(T \sim t(\nu)\)를 따른다고 한다. 만약 \(T\)가 다음과 같은 형태를 가질 때이다: \[T = \frac{Z}{\sqrt{U/\nu}}\] 여기서, * \(Z\)는 표준정규분포 \(N(0, 1)\)을 따르는 확률 변수이다. * \(U\)는 자유도 \(\nu\)를 갖는 카이제곱분포 \(\chi^2(\nu)\)를 따르는 확률 변수이다. * \(Z\)와 \(U\)는 서로 통계적으로 독립이다.
표본 통계량과의 연결 (단일 표본 t-통계량 예시): 우리가 실제로 사용하는 t-통계량이 왜 위 정의에 부합하여 t-분포를 따르는지 살펴보겠습니다. (모집단이 정규분포 \(N(\mu, \sigma^2)\)를 따른다고 가정)
분자 부분: 표본 평균 \(\bar{x}\)는 \(N(\mu, \sigma^2/n)\)을 따릅니다. 이를 표준화하면 \(Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\)는 표준정규분포 \(N(0, 1)\)을 따릅니다.
분모 부분: 표본 분산 \(s^2 = \frac{\sum(x_i - \bar{x})^2}{n-1}\)과 관련된 통계량 \(U = \frac{(n-1)s^2}{\sigma^2}\)는 자유도 \(\nu = n-1\)인 카이제곱분포 \(\chi^2(n-1)\)를 따른다는 사실이 알려져 있습니다 (수학적 통계학 이론).
독립성: 정규분포를 따르는 모집단에서 추출된 표본의 경우, 표본 평균 \(\bar{x}\)와 표본 분산 \(s^2\)는 서로 독립이라는 것이 증명되어 있습니다. 따라서 위에서 정의한 \(Z\)와 \(U\)도 서로 독립입니다.
이제 t-분포의 정의 \(T = \frac{Z}{\sqrt{U/\nu}}\)에 위 요소들을 대입해 보겠습니다. (자유도 \(\nu = n-1\))
이는 우리가 흔히 사용하는 단일 표본 t-통계량과 정확히 일치합니다. 따라서, 정규분포 모집단에서 추출한 표본으로 계산한 t-통계량은 자유도 \(\nu = n-1\)인 t-분포를 따릅니다. 독립표본 t-검정의 경우에도 유사한 논리가 적용되지만, 표준 오차(SE) 계산 방식과 자유도(df) 정의가 달라집니다 (본문 3.1.2절 참고).
E 자유도 (Degrees of Freedom, df)의 역할
자유도(df)는 통계적 추정에서 사용될 수 있는 독립적인 정보의 수 또는 개수를 의미하는 중요한 개념입니다. t-분포의 모양은 이 자유도 값에 따라 결정됩니다.
개념적 이해: 표본 분산 \(s^2 = \frac{\sum(x_i - \bar{x})^2}{n-1}\)을 계산할 때를 생각해 봅시다. \(n\)개의 관측치 \(x_1, ..., x_n\)이 있지만, 분산 계산에는 표본 평균 \(\bar{x}\)가 사용됩니다. 편차들의 합 \(\sum(x_i - \bar{x})\)은 항상 0이 되어야 한다는 제약 조건이 생깁니다. 따라서 \(n\)개의 편차 중에서 \(n-1\)개의 값이 결정되면 마지막 편차 값은 자동으로 정해집니다. 즉, 분산 추정에 사용되는 독립적인 정보 조각은 \(n-1\)개이며, 이것이 단일 표본 문제에서 자유도가 \(n-1\)이 되는 이유입니다.
t-분포 형태에 미치는 영향: 자유도 \(\nu\)는 t-분포의 ’꼬리 두께’를 결정합니다.
자유도가 낮을수록 (\(\nu\)가 작을수록): 표본 표준편차 \(s\)의 불확실성이 커집니다 (적은 정보로 \(\sigma\)를 추정). 이를 반영하여 t-분포는 표준정규분포(Z)보다 꼬리가 더 두껍고(heavier tails) 봉우리가 낮아집니다. 즉, 평균에서 멀리 떨어진 극단적인 t-값이 나타날 확률이 Z-분포보다 높습니다.
독립표본 t-검정 (이분산 가정, Welch’s): Welch-Satterthwaite 공식으로 계산되며 (본문 3.1.2절 참고), 일반적으로 \(n_1+n_2-2\) 보다 작거나 같은 값을 가집니다.
F t-분포의 확률 밀도 함수 (PDF) 와 특징
t-분포의 확률 밀도 함수(Probability Density Function, PDF)는 주어진 자유도(\(\nu\))에 대해 특정 t-값이 나타날 상대적 가능성을 나타냅니다. 이 함수의 수학적 유도 과정은 확률 변수 변환 등 고급 통계 이론을 필요로 하므로 여기서는 생략하고, 최종 형태와 그 특징을 소개합니다.
PDF 공식 (참고용): 자유도 \(\nu\)를 갖는 t-분포의 PDF는 다음과 같습니다. \[f(t; \nu) = \frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\Gamma\left(\frac{\nu}{2}\right)} \left(1 + \frac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}}, \quad -\infty < t < \infty\] 여기서,
\(\nu\)는 자유도 (양의 정수)
\(\Gamma(\cdot)\)는 감마 함수(Gamma function)로, 팩토리얼(!) 개념을 실수 및 복소수까지 확장한 특수 함수입니다. (\(\Gamma(n) = (n-1)!\) for integer \(n \ge 1\))
참고: 이 공식은 \(T = \frac{Z}{\sqrt{U/\nu}}\) 정의와 확률 변수 변환 기법을 통해 유도되지만, 그 과정은 본 부록의 범위를 넘어섭니다.
주요 특징:
대칭성: PDF 공식이 \(t^2\) 항에 의존하므로, 분포는 \(t=0\)을 중심으로 좌우 대칭입니다. 따라서 평균은 0입니다 (단, \(\nu > 1\)일 때 정의됨).
종 모양 (Bell Shape): 정규분포와 유사한 종 모양이지만, 봉우리가 약간 낮고 꼬리가 더 두껍습니다.
두꺼운 꼬리 (Heavier Tails): 특히 자유도 \(\nu\)가 작을 때 정규분포보다 꼬리 부분이 더 두껍습니다. 이는 \(s\)로 \(\sigma\)를 추정하는 데 따르는 추가적인 불확실성을 반영하며, 극단적인 t-값이 나타날 확률이 정규분포보다 높다는 것을 의미합니다. 분산은 \(Var(T) = \frac{\nu}{\nu-2}\) (단, \(\nu > 2\)일 때 정의됨)으로 항상 1(표준정규분포의 분산)보다 큽니다.
정규분포로의 수렴: 자유도 \(\nu\)가 증가함에 따라 (\(\nu \to \infty\)), t-분포의 PDF는 표준정규분포의 PDF \(\phi(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2}\)에 수렴합니다. 일반적으로 df가 30 이상이면 정규분포와 매우 유사해집니다.
시각적 비교: 아래 코드는 자유도(df) 변화에 따른 t-분포 모양과 표준정규분포(Z)를 비교하여 보여줍니다.
Code
import numpy as npimport matplotlib.pyplot as pltfrom scipy.stats import t, norm# 비교할 자유도 값들dfs = [2, 5, 30]# x축 범위 설정x = np.linspace(-5, 5, 500)# 그래프 생성plt.figure(figsize=(10, 6))# 표준정규분포(Z) PDF 플롯plt.plot(x, norm.pdf(x, 0, 1), label='Standard Normal (Z)', color='black', linestyle='--')# 다양한 자유도를 가진 t-분포 PDF 플롯for df_val in dfs: plt.plot(x, t.pdf(x, df_val), label=f't-distribution (df={df_val})')# 그래프 제목 및 레이블 설정plt.title('Comparison of t-distributions and Standard Normal Distribution')plt.xlabel('t / Z value')plt.ylabel('Probability Density')plt.legend() # 범례 표시plt.grid(True, alpha=0.5) # 그리드 표시plt.ylim(bottom=0) # y축 하한 설정plt.show()
Figure F.1: 자유도(df)에 따른 t-분포와 표준정규분포(Z) 비교
위 그래프(Figure F.1)에서 볼 수 있듯이, 자유도가 작을수록(df=2) t-분포는 Z-분포보다 훨씬 넓게 퍼져 있으며 꼬리가 두껍습니다. 자유도가 증가함에 따라(df=5, df=30) 점차 Z-분포에 가까워지는 것을 확인할 수 있습니다.
가설 검정에서의 활용: t-분포의 PDF(및 누적분포함수 CDF)는 특정 t-통계량 값이 귀무가설 하에서 얼마나 발생 가능성이 있는지를 확률적으로 계산하는 데 사용됩니다. 즉, p-값은 이 t-분포를 기준으로 계산됩니다. (예: 양측 검정 p-값 = \(P(|T_{\nu}| \ge |t_{observed}|)\))
G 요약
t-분포는 모집단 표준편차(\(\sigma\))를 모르고 표본 표준편차(\(s\))를 사용하여 통계적 추론을 할 때 사용되는 필수적인 확률 분포입니다. 표본에서 계산된 t-통계량은 (모집단 정규성 가정 하에) 이 분포를 따르며, 분포의 정확한 모양은 분석에 사용된 독립적인 정보의 수인 자유도(df)에 의해 결정됩니다. t-분포는 정규분포보다 두꺼운 꼬리를 가지며(특히 df가 작을 때), 이는 \(\sigma\) 추정에 따른 불확실성을 반영합니다. 자유도가 커지면 정규분포에 수렴합니다.
t-검정의 p-값은 귀무가설 하에서 해당 t-분포를 기준으로 계산되므로, t-분포에 대한 이해는 t-검정 결과를 올바르게 해석하는 데 중요합니다. 본 교재의 3장 및 관련 장에서는 이 t-분포를 기반으로 하는 다양한 t-검정 기법들을 파이썬을 통해 실제로 적용하고 해석하는 방법을 다룹니다.